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基于 DCNN 分 类 的 图 像 相关 度 度量 “ 
王 会 勇 ， 谢 春 杰 ， 张 晓 明 ， 孙 晓 领 


(河北 科技 大 学 信息 科学 与 工程 学 院 , 石家庄 050018) 


摘 要 : 在 衡量 图 像 之 间 的 相关 度 时 ， 图 像 的 物理 特征 〈 颜 色 分 布 、 灰 度 值 等 ) 所 能 表达 的 内 容 可 能 并 非 十 分 全 面 ， 
因此 有 必要 参考 图 像 视觉 所 包含 的 语义 信息 衡量 图 像 之 间 的 相关 度 。 为 此 提出 了 一 种 基于 深度 卷 积 神经 网 络 (deep 
convolutional neural networks) 分 类 模型 的 度量 图 像 相关 度 的 方法 ， 利 用 模型 为 图 像 绑 定 来 自 于 WordNet 的 语义 标签 ， 
并 参照 WordNet 结构 对 标签 进行 过 滤 和 扩展 ， 利 用 概念 集合 计算 图 像 相关 度 。 与 人 工 判定 的 样本 数据 比较 ，Pearson 相 
关系 数 峰 值 能 够 达到 0.73， 证 明 该 方法 在 衡量 图 像 相 关 度 时 具有 一 定 的 效果 。 
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Image relativity metric based on classification with DCNN 


Wang Huiyong, Xie Chunjie, Zhang Xiaoming, Sun Xiaoling 
(School of Information Science & Engineering, Hebei University of Science & Technology, Shijiazhuang 050018, China) 


Abstract: When measuring the similarity between images, the content of the physical features (Color Layout Descriptor, Gray 
Histogram Descriptor, etc.) may not be very comprehensive, so it is necessary to refer to the semantic information contained in 
image vision to measure the relativity between images. In this paper, we propose a method based on Deep Convolutional Neural 
Networks classification model to measure image correlation. The model is used to bind the semantic label from WordNet, and 
the label is filter and expand according to WordNet structure, and the concept set is used to calculate image relativity. Compared 
with the manually determined sample data, the peak value of Pearson correlation coefficient can reach 0.73, which proves that 
this method has a certain effect in the measurement of image correlation. 
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模 态 数据 融合 视 为 深度 融合 。 相 较 而 言 ， 二 者 都 需要 处 理 图 像 
的 高 级 特征 ， 不 同 之 处 在 于 后 者 同时 融合 了 文本 特征 的 处 理 。 
随 着 深度 学 习 方法 在 计算 机 视觉 领域 取得 了 突破 性 的 进展 ， 于 不 需要 考虑 提取 文本 特征 以 及 将 图 像 特征 和 文本 特征 联合 
传统 的 图 像 分 类 问题 已 经 得 到 了 相对 良好 的 解决 ， 跨 模 态 数据 “嵌入 到 共享 空间 四 中 的 问题 ， 因 此 基于 深度 卷 积 神经 网 络 模型 
(文本 数据 和 多 媒体 数据 ) 的 深度 融合 逐渐 成 为 研究 的 热点 ， 的 分 类 方法 所 需 的 成 本 相对 不 高 。 
例如 图 片 标题 生成 中 、 文 本 生成 图 像 2 等 。 在 另外 一 些 研究 任 在 历届 ImageNett9109 大 规模 视觉 识别 挑战 赛 (ILSVRC ) 中 ， 
务 中 , 如 构建 大 型 多 模 态 知识 图 谱 喇 , 或 者 跨 模 态 的 实体 链接 器 先后 出 现 了 很 多 经 典 的 深度 神经 网 络 模型 ， 例 如 Alexnet! 
等 ,也 都 将 跨 模 态 数据 的 融合 视 为 关键 的 核心 技术 问题 。 跨 模 态  VGG023、deep residual learning03] 等 。 在 最 新 的 图 像 分 类 比赛 任 
数据 的 融合 ， 能 够 得 到 图 像 视觉 语义 在 文本 语义 空间 的 表达 ， SH, top-5 的 错误 率 已 经 降 到 了 0.0901, 这样 的 准确 性 已 经 达 
利用 文本 语义 空间 的 抽象 层次 结构 , 可 以 实现 语义 内 容 的 扩展 。 ”到 了 很 高 的 水 平 。 结 合 方法 成 本 和 模型 的 效果 ， 本 文 设计 了 基 
能 否 将 跨 模 态 数 据 融 合 的 结果 应 用 于 图 像 相关 度 的 计算 ， 是 一 于 深度 卷 积 神经 网 络 图 像 分 类 的 图 像 相 关 度 计算 方法 。 
个 值得 研究 的 问题 。 当 利 用 ImageNet 数据 集 对 深度 卷 积 神经 网 络 模型 进行 训 
本 文 将 基于 深度 卷 积 神经 网 络 模型 的 图 像 分 类 视 为 跨 模 态 。 练 后 ， 模 型 能 够 为 图 像 绑 定 来 源 于 WordNet04 的 资源 标签 。 
数据 的 浅 层 融合 ， 并 且 将 采用 多 模 态 表示 学 习 方 法 中 实现 的 跨 。 WordNet 可 以 视 为 一 个 较为 权威 的 文本 语义 空间 ， 参 照 
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WordNet 定义 的 类 型 结构 ， 可 以 设计 规则 对 概念 进行 过 滤 和 志 


展 ， 从 而 实现 语义 J 
像 所 包含 的 语义 信息 存在 关联 。 
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上 下 文 的 获取 。 扩 展 得 到 的 概念 ， 视 为 与 


过 


Ds 


本 文 基于 上 述 思 想 ， 完 成 了 方法 的 设计 。 包 括 相 关 的 扩展 


paj 


整 的 参数 以 及 计算 方法 。 首 先 对 民 


适当 的 过 小， 然后 按照 扩展 规划， 生成 得 到 良 
。 概 念 集合 中 的 元 素 不 是 彼此 独立 的 ， 而 


分 的 上 下 位 关系 。 概 念 间 的 上 下 位 关系 对 


像 分 类 标签 进行 
像 关 联 的 概念 集 
存在 按照 语义 划 
衡量 相关 性 起 到 了 一 


定 的 决定 影响 ， 因 此 提出 了 一 种 将 上 下 位 关系 转换 为 权重 的 规 
K 


则 ， 利 用 图 像 关 联 的 概念 集合 设计 了 计算 医 
度 的 方法 。 


相关 工作 


像 与 


像 之 间 相 关 


本 文 提 到 的 相关 度 与 相似 度 没有 明确 的 界限 ， 由 于 本 文 设 


计 的 方法 是 将 图 像 融 合 的 文本 所 在 的 语义 空间 的 扩展 内 容 作 为 
j 量 的 标准 ， 因 此 使 用 相关 度 描 述 更 加 贴切 。 在 衡量 图 像 之 间 


的 关系 时 ， 需 要 对 图 像 所 表达 的 内 容 进 行 分 析 。 按 照 使 用 的 手 
段 不 同 ， 可 以 将 目前 衡量 图 像 相关 性 的 方法 分 为 基于 物理 特征 
的 方法 和 深度 学 习 方 法 两 类 : 
基于 物理 特征 的 方法 。 这 类 方法 主要 对 


如 像 的 物理 特征 进 
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Fig.l internal relation of images 
本 文 利用 深度 卷 积 神经 网 络 模型 为 图 像 绑 定 分 类 标签 ， 并 
依据 WordNet 所 提供 的 较为 权威 的 内 容 扩展 上 下 位 关系 ， 以 达 
到 挖掘 图 像 之 间 隐 含 关 联 的 目的 。 模 型 训练 过 程 中 使 用 到 了 
ImageNet 数据 集 ， 一 个 大 规模 图 像 语料库 。ImageNet 根据 
WordNet 层次 结构 组 织 图 像 数 据 ， 为 每 一 个 有 意义 的 概念 
Csynset) 提供 了 1000 张 图 像 说 明 ， 图 像 的 质量 控制 和 注释 都 
是 由 人 工 完 成 的 。 最 新 的 ImageNet 数据 集 为 21841 个 概念 提供 
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行 分 析 ， 例 如 灰 度 直方 图 Ceray histogram descriptor) 、 方 向 梯 
度 直 方 图 (histogram of oriented gradients descriptor) 和 颜色 布 
局 (color layout descriptor) 等 。Ferrada 等 人 [5 在 构建 大 型 的 多 
模 态 知识 图 谱 时 ， 依 据 上 述 特 征 对 图 像 之 间 的 相似 度 进行 了 评 


了 共 14197122 张 图 像 ， 训 练 好 的 模型 可 以 预测 1000 个 类 别 。 

WordNet 是 一 个 由 普林斯顿 大 学 发 起 的 研究 项 目 ， 是 一 个 
按照 词语 的 词义 组 织 词汇 信息 的 大 型 在 线 英 文 分 类 数据 库 系统 。 
每 一 个 词语 包含 一 个 或 者 多 个 概念 ， 每 个 概念 都 对 应 着 一 个 或 
者 多 个 单词 及 单词 短语 的 描述 ， 成 为 同义词 集合 (synset) 。 目 


在 此 基础 上 设计 了 相关 的 查询 方法 。 
特征 往往 


事实 上 图 像 的 物理 
不 能 将 图 像 所 包含 的 语义 内 容 全 部 表达 出 来 ， 因 此 
这 类 方法 具有 一 定 的 局 限 性 。 

基于 深度 学 习 的 方法 。 这 类 方法 主 如 


申 经 网 络 模型 对 


E 向 量 后 ， 直 接 利用 


输入 的 图 像 进行 卷 积 计算 ， 得 到 图 像 的 特 和 


下 向 量 进行 相似 度 计算 。 相 对 于 第 
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的 方法 能 够 得 到 更 加 型 


， 基 于 深度 学 习 
EE 想 的 效果 。 例 如 Chopra 等 人 0109 将 


Siamese0 7 网 络 应 用 于 人 脸 识别 任务 中 ， 取 得 了 较 好 的 结 
Zagoruyko 等 人 HN 对 Siamese 网 络 进行 了 改进 ， 并 融合 了 空间 
营 池 化 采样 吕方 法 , 进一步 提升 了 模型 的 


旭 像 所 包含 的 语义 信息 是 具有 扩展 性 的 ， 如 民 


1 


所 示 ， 当 直接 


图 像 内 容 存 在 的 隐 含 的 联系 。 


当 人 类 观察 者 在 观察 图 1 中 的 两 个 图 
有 的 背景 知识 对 图 像 中 的 内 容 进行 分 辨 ， 


JE a 和 图 像 b 的 特征 向 量 进行 计算 时 ， 往 往 不 能 捕捉 到 


像 a 和 b 时 , 会 依据 


产生 相关 的 


前 ，WordNet3.0 中 包含 了 10 万 个 同义词 ， 其 中 80% 以 上 为 名 
词 ， 其 定义 的 上 下 位 层次 总 数 为 19 层 。 


2 问题 定义 


利用 图 像 视觉 内 容 关联 的 WordNet 概念 计算 图 像 之 间 的 相 
本 文 着 重 解决 的 最 核心 的 问题 。 在 设计 计算 方法 时 ， 文 
本 将 与 图 像 视觉 内 容 不 相符 的 WordNet 概念 〈 分 类 结果 噪声 ) 
以 及 抽象 层次 过 高 的 WordNet 概念 (概念 扩展 噪声 ) 视 为 计算 
过 程 中 的 噪声 。 设 计 有 效 的 方法 解决 分 类 结果 的 噪声 问题 和 概 
念 扩 展 的 噪声 问题 是 解决 图 像 相关 度 计算 问题 的 必要 基础 。 
2.1 分 类 结果 的 噪声 问题 

本 文 在 获取 图 像 与 文本 的 融合 结果 时 ， 采 用 了 与 图 像 分 类 
相同 的 方法 ， 但 是 对 得 到 的 结果 采取 了 不 同 的 处 理 策略 。 在 图 
像 分 类 任务 中 ， 期 望 得 到 的 是 准确 的 图 像 从 属 的 类 别 。 而 在 本 
文 相关 的 任务 中 ， 则 是 将 模型 得 到 的 标签 视 为 图 像 视 觉 语义 信 
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联想 。 例 如 图 像 a 中 的 俄罗斯 蓝 猫 属于 猫 类 ， 猎 类 又 属于 哺乳 


动物 。 图 像 b 中 的 印度 辊 属于 鸟 类 。 而 


十 乳 动物 和 乌 类 都 属于 


。 这 样 的 联想 能 够 使 得 两 个 图 像 在 文本 语义 空间 中 取得 一 


定 的 关联 性 。 在 一 些 实际 情况 中 ， 观 察 者 可 能 无 法 准确 判断 图 
1 中 猫 的 种 类 和 鸟 的 种 类 ， 甚 至 可 能 发 9 
单 的 情况 对 于 衡量 两 个 图 像 之 间 的 相关 度 没 有 太 大 影响 。 


息 在 文本 空间 的 表达 。 如 图 2 所 示 , 对 于 一 张 图 像 的 分 类 结果 ， 
如 果 直 接 进 行 标签 对 比 ， 判 断 得 到 的 结果 可 能 是 分 类 错误 。 例 
如 图 2 中 的 鸟 为 印度 辊 ， 但 是 分 类 的 结果 并 不 包含 正确 标签 ， 


因此 判断 分 类 结果 为 错误 。 而 如 果 将 这 些 标签 作为 图 像 视觉 语 


错误 的 判断 。 但 是 这 


义 信息 在 文本 空间 的 表达 ， 当 在 一 个 具有 抽象 层次 的 结构 中 审 
视 这 些 标签 时 ， 可 能 这 些 标签 对 于 分 析 图 像 所 表达 的 内 容 是 有 
帮助 的 。 即 没有 得 到 对 图 像 的 最 为 精确 的 描述 ， 但 是 可 以 推出 
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王 会 勇 ， 等: 基于 DCNN 分 类 的 图 像 相 关 度 度量 第 37 BH 1 期 
法 ， 并 基于 Jaccard 相似 度 计 算 方 法 设计 了 计算 图 像 相 关 度 的 


语义 空间 


印度 辊 BMS ae … 


结果 可 


\ pams] 


一 


图 2 与 图 像 分 类 任务 的 不 同 


Fig.2 Different from image classification 


ImageNet 在 对 模型 分 类 结果 


oh 


统计 top-5 准确 率 的 方法 ， 


要 有 


个 是 准确 的 ， 结 果 就 认定 为 
题 是 ，5 个 标签 的 内 容 不 全 都 是 准 


确 的 《分 类 


确 率 进行 测评 时 , 采用 了 
即 模 型 为 图 像 分 配 的 5 个 标签 中 只 
准确 。 这 样 的 结果 存在 的 问 


标 


签 与 图 像 视觉 


内 容 不 相符 ) 。 由 于 本 文 利 


训练 好 的 深度 


经 


网 络 模型 对 图 


像 进行 分 类 时 ， 也 保留 模型 为 每 个 


5, 因此 这 样 的 结果 或 多 或 少 都 包含 了 一 定 的 
度 的 计算 结果 产生 影响 。 为 了 减少 这 样 的 噪声 ， 本 文 设计 了 基 


图 像 分 配 的 分 类 标签 的 top- 


RE, 对 图 像 相 关 


于 有 效 距 离 的 筛选 方法 ， 尽 可 能 过 滤 分 类 结果 中 存在 的 与 图 像 


视觉 内 容 不 相符 的 标签 。 
2.2 概念 扩展 的 噪声 问题 


于 分 类 模型 为 图 像 的 绑 定 的 分 类 标签 对 应 着 WordNet 中 


的 某 一 个 确切 的 概念 ， 因 此 依据 WordNet 定义 的 类 型 结构 ， 可 


以 获得 每 个 概念 的 上 位 词 ， 概 念 的 上 位 词 还 能 继续 向 上 扩展 ， 

最 后 都 链接 到 entity 概念 。 越 上 层 的 概念 意味 着 抽象 层次 越 高 。 
当 某 一 个 概念 向 上 扩展 至 entity 所 在 的 抽象 层次 ， 再 将 相关 概 
念 作为 衡量 图 像 相关 度 的 依据 时 ， 由 于 抽象 层次 过 高 (所 有 的 
概念 都 能 关联 到 entity 概念 ) ， 得 到 的 结果 将 变 得 不 可 靠 。 


另 一 方面 ， 分 类 模型 为 每 个 图 
概念 向 上 扩展 的 层次 可 能 很 多 ， 因 
a 


方法 。 本 文 还 提出 了 一 种 计算 权 值 的 方法 ， 
下 位 关系 融入 到 图 像 相关 度 的 计算 中 。 


于 将 概念 间 的 上 


— 


3 ”方法 设计 与 实现 


针对 第 2 章 提出 的 三 个 问题 ,分 别 设计 了 不 同 的 解决 方案 ， 
最 终 整合 为 一 个 完整 的 模型 。 模 型 主要 包含 两 个 模块 ， 如 图 
3 所 示 。 两 个 模块 分 别 为 分 类 标签 过 滤 模 块 和 相关 度 计 算 模块 。 
模型 输入 为 两 张 图 像 ， 输 出 为 一 个 位 于 0~1 的 数值 。 对 输入 的 
处 理 流 程 分 为 以 下 几 个 步骤 ; 
a) 利 用 DONN 分 类 器 分 别 为 输入 图 像 绑 定 分 类 标签 ， 
图 像 会 绑 定 5 个 标签 。 
b) 利 用 基于 有 效 距 离 的 过 滤 模 块 对 标签 进行 适当 的 过 滤 。 
过 滤 得 到 有 效 分 类 标签 集合 , 它们 将 被 作为 下 一 个 模块 的 输入 。 
9 依据 WordNet 结构 生成 相关 的 概念 集合 ， 利 用 集合 计 千 
相关 度 的 值 ， 输 出 一 个 0 到 1 之 间 的 数值 。 
图 像 1 (标签 全 


每 个 


输入 


(图 像 2 | 


y 
MEW GEF ARE) 


FER y 
基于 WordNet 结 构 扩 展 


Vv 
有 效 关联 概念 获取 


Vv 
Jaccard 计 算 (加权 值 》 


输出 


图 3 方法 流程 图 

Fig.3 Flow diagram 
过 滤 模 块 主要 用 于 降低 分 类 结果 中 出 现 的 噪声 ， 有 一 个 人 
工 调 节 的 参数 , BOB, 用 于 限定 有 效 距离 排名 的 结果 ， 从 而 
达到 过 滤 的 目的 。 相关 度 计算 模块 有 一 个 人 工 调节 的 参数 t, 用 
于 限制 向 上 扩展 的 层次 。 在 图 3 中 ， 两 种 不 同 风 格 的 细 线 条 表 


像 分 配 多 个 分 类 标签 ， 每 个 
此 不 加 限制 的 扩展 将 会 得 到 


一 个 庞大 的 概念 集合 。 如 果 不 考 虑 


性 。 因 此 为 了 尽量 避免 出 现 这样 的 
层次 的 方法 对 扩展 结果 进行 有 效 控 
23 ”图 像 相关 度 的 计算 问题 


在 处 理 完 分 类 结果 的 噪声 与 概 
用 图 像 关 联 的 WordNet 概念 计算 


制 。 


抽象 层次 过 高 带 来 的 噪声 问 
在 计算 相关 度 时 ， 一 些 不 相关 的 概念 将 会 影响 结果 


的 准确 


示 对 两 个 图 像 的 处 理 流 程 ， 下 面 展开 详细 说 明 。 
3.1 基于 有 效 距 离 的 分 类 标签 筛选 


在 WordNet 定义 的 类 型 结构 树 中 ， 由 一 个 概念 到 达 男 一 个 
不 同 的 概念 所 经 历 的 最 短路 径 称 长 度 为 两 个 概念 间 的 最 短 距 离 。 


问题 ， 本 文 设计 了 限制 扩展 


念 扩 展 的 噪声 之 后 ， 本 文 利 


区 


到 像 之 间 的 相关 度 。 与 基于 
WordNet 的 词语 相似 度 计 算 不 同 的 是 ， 在 本 文 设 计 的 计算 图 像 


算 两 个 概念 问 的 相似 度 ， 需 要 以 


相关 度 方法 中 ， 需 要 同时 考虑 的 是 一 组 概念 ， 而 不 是 两 个 单独 
的 概念 。 因 此 不 能 采用 相同 的 方法 进行 计算 ， 因 为 如 果 逐 一 计 


牲 时 间 效 率 为 代价 ， 并 且 对 


计算 得 到 的 多 个 结果 进行 合理 的 融 
对 相关 度 的 计算 问题 ， 本 文 设计 了 


合 也 是 


个 较 难 的 问题 。 针 


一 种 提取 有 效 概念 集合 的 方 


通过 深度 神经 网 络 模型 对 图 像 进 行 分 类 处 理 ， 得 到 图 像 对 应 的 
5 个 分 类 标签 ， 对 于 任意 一 个 分 类 标签 ， 它 和 其 余 4 个 分 类 标 
签 的 最 短 距 离 的 平均 值 , 称 为 有 效 距 离 。 对 于 每 一 个 分 类 标签 ， 
都 根据 式 〈1) 所 示 的 有 效 值 计算 公式 确定 其 对 应 的 有 效 值 。 


ff ( c) 0 aPath(c,C) is not top-r 1 
effe(c,C) = 
1 aPath(c.,C) is top-r ( ) 


其 中 : effe(c, ORMARMRE cj 对 应 的 有 效 值 ， 只 有 0 或 1 两 
种 情况 。aPath(c1,C) 表 示 分 类 标签 c 在 集合 C 中 的 有 效 距 离 ， 
集合 C 为 c 所 在 的 5 个 分 类 标签 组 成 的 集合 。r 表示 人 工 可 调 
节 的 阔 值 参数 ， 当 前 元 素 的 有 效 距离 若 在 当前 集合 所 有 元 素 的 
有 效 距 离 的 升序 排名 属于 top-r， 则 其 有 效 值 为 1,，r 的 取 值 在 


201811.00196v1 


chinaXiv 


EAH, F: 


1~5， 当 7 值 为 5 时 ,表示 不 进行 过 滤 。 得 到 每 个 分 类 标签 的 
效 值 后 ， 根 据 有 效 值 对 分 类 标签 进行 筛选 ， 筛 选 后 的 有 效 分 类 
标签 集合 定义 为 $S， 表 示 方 式 由 式 (2) 所 示 。 

S ={c|e € C reffe(c,C)=1} 2) 
其 中 : efe ORRERA O) 所 示 的 计算 方法 进行 计算 。 如 图 4 所 
示 , 对 基于 有 效 距 离 的 分 类 标签 筛选 策略 进行 了 更 直观 的 说 明 。 
DONN 模型 为 图 像 分 配 五 个 标签 , 根据 WordNet 结构 计算 标签 
之 间 的 距离 得 到 距离 矩阵 ， 计 算 任意 一 个 标签 与 剩余 标签 之 间 


的 平均 距离 ， 并 按照 平均 距离 大 小 对 标签 进行 排名 ， 最 终 根据 
设置 的 r 值 对 排名 结果 进行 筛选 ， 构 建 有 效 分 类 标签 集合 So 
集合 C 距离 计算 he 
Ci Cp Cs Cy Cs 5 ae 
WordNet 
距离 矩阵 
Cı | C2 | C3 | C4 | C5 | avg 
Ci Lie Lis Lu Lis Al 
C2 La Les La Les A2 
C3 La Lae Ls4 Las A3 
C4 La La Las Lss A4 
C5 Lsı Lse Lss | Ls4 A5 


图 4 基于 有 效 距 离 的 分 类 标签 过 滤 方 法 流程 

Fig.4 Method flow of classified label filtering based on effective distance 
3.2 基于 上 位 词 扩展 集合 的 图 像 相 关 度 计 算 

腿 设 有 两 张 图 像 分 别 为 图 像 4 MENR B, Sa 表示 图 像 4 对 
应 的 有 效 分 类 标签 集合 ，$s 表示 图 像 如 对 应 的 有 效 分 类 标签 集 
合 。 已 表示 图 像 4 对 应 的 扩展 集合 ，Es 表示 图 像 B 对 应 的 扩 
展 集合 。E4 和 Es 满足 式 G) M H 所 示 的 条 件 。 


Ea = ect (Sa,t) (3) 
Es = ect(Se,t) (4) 
在 E4 和 Er 的 基础 上 提出 了 有 效 关联 集合 的 概念 。 有 效 关 


联 集合 是 一 个 相对 的 概念 ， 当 在 对 比 两 个 图 像 各 自 的 扩展 集合 
时 ， 按 照 以 下 两 个 判断 条 件 生成 有 效 关 联 集合 : 

a) 当前 元 素 与 另 一 个 集合 中 的 某 个 元 素 相同 , 则 当前 元 素 
及 其 所 在 集合 中 属于 当前 元 素 的 下 位 词 的 元 素 ， 均 属于 有 效 关 
KRE- 

b) 当前 元 素 在 另 一 个 集合 中 不 存在 相同 元 素 , 则 当前 元 素 
属于 有 效 关联 集合 。 


JORT, Oss RAK A 相对 于 图 像 B 的 
有 效 关联 集合 , O84 表示 图 像 相对 与 图 像 4 的 有 效 关联 集合 。 
Bee tA r 的 值 都 为 3, 按照 上 述 两 个 判断 关联 集合 的 示意 图 如 


图 5 所 示 。 
不 难 发 现 ， 有 效 关联 集合 是 一 个 相对 概念 ， 图 像 A 对 于 不 
同 的 图 像 B 和 图 像 C， 得 到 的 有 效 关联 集合 不 一 定 是 相同 的 。 


在 图 5 中 ， 不 同 的 花纹 的 形状 代表 不 同 的 概念 ， 相 同 花 纹 的 形 
状 代 表 相 同 的 概念 。 其 中 空心 圆 和 空心 十 二 边 形 是 满足 两 个 判 
断 条 件 中 的 条 件 b 的 ， 其 余 概 念 是 满足 两 个 判断 条 件 中 的 条 件 
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图 5 ”有效 关联 集合 生成 示意 图 
Fig.5 Generate schematics of associated sets 
得 到 图 像 的 有 效 关联 概念 集合 后 ， 就 能 够 计算 两 个 图 像 的 
相关 度 。 本 文 设 计 的 相关 度 计算 公式 是 以 Jaccard 计算 公式 为 
基础 设计 的 。Jaccard 计算 公式 如 式 〈5) 所 示 。 


[AAB] |AMB| 


"ABD = BAS IB AaB ©) 
在 设计 相关 度 计算 公式 时 ， 首 先 确 定 了 Jaccard 公式 的 两 
个 输入 矩阵 。 将 有 效 关联 集合 和 扩展 集合 作为 计算 的 内 容 ， 按 
Hast (6) 所 示 的 相关 度 计算 函数 计算 。 
[Oas J Oral 
corr(A, B) = [EAU Ea (6) 
扩展 概念 集合 中 的 元 素 在 WordNet 定义 的 体系 结构 中 ， 存 


在 上 下 位 关系 。 按 照 式 (6) 的 计算 方法 ， 每 个 元 素 所 占 的 权重 
均 为 1。 在 单独 对 比 两 个 WordNet 概念 间 时 ， 深 度 越 小 的 节点 
对 概念 间 相 似 关 系 的 影响 越 大 Po。 在 对 比 一 组 概念 时 ， 本 文 同 
样 遵循 这 样 的 原则 。 并 提出 了 一 种 简单 的 计算 权重 的 方法 。 对 
集合 E4 中 的 元 素 ， 其 权 值 按照 式 《7) 所 示 的 方法 计算 。 


pow(c) = a (7) 


其 中 : t 表示 设 定好 的 扩展 层次 ，to 表示 当前 概念 的 相对 距离 ， 
若 元 素 为 起 始 扩展 概念 〈 属 于 集合 S) ， 则 其 相对 距离 为 1。 

计算 出 每 个 概念 的 权重 后 , 在 式 (6) 的 基础 上 设计 了 基于 
权重 的 相关 度 计算 函数 ， 如 式 (8) 所 示 。 


E ponli) 
corrP(A, B) = = ___ (8) 


2, pow( J) 


je( EAUEs) 


其 中 : pow(D 和 pow0) 按 照 式 (7) 的 方法 计算 。 将 概念 之 间 的 
层次 关系 作为 影响 计算 的 权重 ， 能 够 提升 计算 结果 的 效果 ， 在 
实验 部 分 证 实 了 这 样 的 猜想 。 


4 ”实验 及 结果 


4.1 采集 人 工 评价 数据 

本 文 设 置 了 十 组 样本 图 像 对 作为 相关 度 计算 效果 评价 的 测 
R, HART 50 个 观察 者 对 图 像 的 相关 度 进行 评分 , 分 数 最 

低 分 为 0 分， 最 高 分 为 4 分 。 在 对 图 像 的 相关 度 进行 评分 时 ， 


Bf 
Pit 


201811.00196v1 


chinaXiv 


ChinaXiv 合 作 期 刊 
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观察 者 需要 考虑 两 个 区 根据 个 人 的 判 。” 义 层面 应 该 是 互相 接近 的 。 因 此 按照 + 值 的 过 滤 遵 循 了 这 个 规 
断 对 图 像 的 相关 度 进行 记 妈 像 对 进行 评价 的 。” 律 ， 如 果 几 个 概念 彼此 间 的 距离 都 很 近 ， 则 认为 这 几 个 概念 与 
统计 结果 如 表 1 所 示 。 图 像 视觉 内 容 的 相关 度 更 高 。 当 r 值 偏 大 时 ， 这 种 有 效 距离 的 
在 表 1 中 ,j 值 的 升序 顺序 对 样本 数据 进行 了 展示 。 ”范围 也 变 大 ， 因 此 过 滤 效 果 不 明显 导致 准确 度 下 降 。 当 r 值 过 
其 中 最 低 分 为 0.30 分 , 最 高 分 为 3.36 分 。 按 照 评 分 的 升序 序列 ”小 时 ， 相 对 准确 的 标签 可 能 会 被 过 滤 掉 ， 因 为 不 能 保证 准确 概 
对 十 组 图 像 对 进行 了 编号 ,评分 为 0.30 的 图 像 对 编号 为 第 一 组 ， ” 念 与 其 他 概念 间 的 有 效 距离 始终 是 最 短 的 。 
评分 为 0.46 的 图 相对 编号 为 第 二 组 ， 以 此 类 推 。 人 工 评价 数据 0.8 
最 终 将 作为 参照 ， 在 后 续 的 实验 中 用 于 评价 本 文 方法 的 结果 。 - 
Table 1 Artificial evaluation of 10 groups of sample images = = 
图 像 对 图 评分 os 
S A Y LB . 
0.3 i T 7 T 3 T a 
T 值 
@ ` i 图 6 利用 200 张 图 像 测试 的 不 同 z 值 的 过 滤 准 确 度 
Fig.6 Filtering accuracy of different r tested with 200 images 
r ad «TS 43 相关 度 的 计算 评价 及 结果 
* a sae 在 确定 r 值 之 后 ， 就 可 以 得 到 图 像 的 扩展 集合 ， 扩 展 时 使 
O > 用 的 数据 集 为 WordNet 3.0。 利用 本 文 设计 的 方法 实现 了 图 像 相 
ed 2 dae 关 度 的 计算 ， 并 与 表 1 中 的 数据 进行 了 对 比 。 通 过 计算 表 1 所 


4.2 了 『 值 的 确定 
本 文选 择 的 月 


个 改进 后 的 AlexNet 模型 , 将 ILSVRC-2012 数据 全 
分 类 的 训练 集 。 通 过 


训练 之 后 ， 逢 


错误 率 为 7%。 


ASI BES: 


FPF 随机 挑选 了 200 张 图 


测试 数据 集 


ral 


的 caffeNet 模型 对 200 HK 
确 率 排名 为 top-5 的 分 类 标签 。 然 后 对 于 每 张 区 
类 标签 按照 式 (2) 所 示 的 方法 生成 有 效 分 类 标签 集合 。 最 后 通 


限 ， 在 此 不 做 展示 。 


J ILSVRC-2012 测试 集 的 评测 结果 显示 top-1 f 


像 作为 确定 AH 


FF) 


E 9 每 个 


训练 好 
图 像 保留 准 


像 所 对 应 的 分 


的 深度 神经 网 络 模型 为 caffeNet， 
EEA RMR 
F ILSVRC-2012 数据 集 的 50000 次 迭代 


6 


6 


过 设置 不 同 的 r 值 对 分 类 标签 进 


况 下 过 滤 的 ; 


ETE, ME rE 


到 1000 个 分 类 标签 。 对 了 
确 度 来 评判 当前 r 值 的 效果 ， 统 计 结 果 丸 


在 不 考虑 重复 的 情况 下 ， 通 过 大 


GAH 


F 不 同 的 r 值 ， 本 文通 过 统计 


的 准确 度 为 过 滤 标 签 中 应 该 被 过 


值 。 在 图 6 中 ， 横 
下 过 滤 的 准确 度 。 
过 滤 结 果 总 体 呈 现 ; 
到 峰值 0.74， 表 明 此 时 的 六 
于 分 类 模型 为 
取 值 范围 时 [1,4]， 


表示 当 


J, ËA 


行 过滤 ， 通 过 对 比 不 同 r 值 情 


EE， 能 够 得 
过 滤 的 准 
[图 6 所 示 。 过 滤 结 果 
滤 的 数量 与 过 滤 标 签 总 数 的 比 
表示 不 同 的 r 值 ， 纵 轴 
通过 测试 结果 不 难看 


前 值 情况 
随 着 r 值 的 增加 ， 
的 准确 度 达 


> 


J 


BEA 


取 整 数 。r 值 越 大 ， 


多 ; RZ, ABS 
EER, RPO RBN EERE, (HEN 


像 分 配 


E r 的 有 效 
Br Fe A 的 元 素 越 
到 像 的 视觉 特征 是 


的 标签 在 语 


示 的 图 像样 本 的 相关 度 ， 最 终 和 人 工 给 出 的 评分 进行 比较 。 实 

仿 中 设置 了 不 同 的 + 值 和 t 值 ， 并 对 比 了 在 最 优 r 值 情 况 下 加 

权 Jaccard 计算 与 不 加 权 Jaccard 计算 方法 得 到 结果 的 变化 情况 。 
将 依据 本 文 方法 计算 的 结果 与 人 工 评价 结果 之 间 的 pearson 系 

数 作为 参考 指标 ， 最 终 对 比 结果 如 图 7 所 示 。 


0.75 


0.65 


Pearson 系 数 


S 
iv 
a 


So 
um 
wn 


> 
= 
a 


1 2 3 4 5 6 7 8 
t 值 
一 $9 一 加 权 jaccard(=1) JN jaccard(r=2) 一 加 权 jaccard(r=3) 


福全 加 权 jaccard(r=4) = jaccard(r=3) 


图 7 图 像 相关 度 计算 结果 测评 
Fig.7 Calculation results of image correlation 

在 图 7 中 ， 纵 轴 代 表 pearson 系数 ， 横 轴 代 表 不 同 的 t 值 。 
通过 设置 不 同 的 了 值 和 t 值 ， 计 算 的 效果 呈现 波动 趋势 。 当 
Pearson 系数 达到 峰值 0.730 时 , r 值 和 t 值 分 别 为 3 和 4。 最 终 
ARER, RA r 值 与 前 述 实验 得 出 的 结论 一 致 ， 即 r 的 取 值 
变化 对 计算 效果 有 影响 ,并且 在 当前 实验 中 , 最 优 r 值 为 3, 说 
明 对 模型 分 类 噪声 进行 的 处 理 是 有 效 的 。 

另 一 方面 , t 值 的 选取 对 计算 的 效果 也 是 有 影响 的 。t 值 越 
大 ， 表 明 扩 展 得 到 的 概念 层次 越 高 ， 反 之 ， 扩 展 得 到 的 概念 抽 
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象 层 次 越 低 。 当 t 值 取 值 过 小 时 ， 扩 展 得 到 的 概念 相对 较 少 ， 
因此 能 够 作为 桥梁 的 公共 上 位 词 数量 也 较 少 ， 导 致 参与 计算 的 
概念 集合 之 间 相 关 性 不 高 ， 计 算 效果 不 理想 。 当 t 值 过 大 时 ， 
扩展 得 到 的 概念 增多 ， 公 共 上 位 词 数量 过 多 ， 导 致 参与 计算 的 
概念 集合 在 较 高 的 抽象 层次 取得 关联 ， 计 算 效 果 也 不 理想 。 


WordNet 中 常见 的 名 词 层 次 数量 很 少 有 超过 10 


屋 的 ， 因 此 当 t 


值 达到 某 一 个 区 间 后 ， 扩 展 概念 集合 和 有 效 关联 概念 集合 变动 


不 大 ， 整 体 的 计算 效果 趋 于 平稳 。 


E r 值 固 定 的 情况 下 对 比 了 加 权 计 算 与 不 加 权 计 算 的 结果 ， 


数据 表明 加 权 计 算 的 效果 更 好 。 将 概念 间 的 上 下 位 关系 转换 为 


权 值 后 ， 概 念 在 层次 结构 中 的 位 
上 位 词 的 权 值 最 大 ， 按 照 层 
上 位 词 时 ， 有 效 关联 概念 集合 的 元 素 所 


对 结果 


会 产生 影响 。 公 共 


次 结构 向 下 依次 递减 。 当 不 存在 公 


不 加 权 的 计算 方法 ， 这 样 得 到 的 结果 更 小 。 
明 ， 


5 权重 很 小 ， 相 对 于 
最 终 的 实验 结果 表 
同 影响 着 计算 结果 。r 值 可 以 通过 基于 有 效 距 


r 值 和 t 值 


离 的 标签 过 滤 实 验方 法 确定 ，t 值 可 以 根据 最 终 的 结果 进行 人 
工 调整 。 同 时 ， 加 权 计 算得 到 的 结果 优 于 不 加 权 计 算得 到 的 结 


FA. 
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的 加 权 计 算 结果 进行 了 展示 。 由 于 人 
计算 的 结果 归 一 化 为 [0,1] 的 数值 ， 因 此 将 人 工 评价 的 结果 也 进 


在 表 2 中 对 参数 了 设置 为 3、 参数 { 设置 为 4 的 情况 下 计算 
评价 采用 了 4 分 制 ， 而 


行 了 归 一 化 处 理 ， 在 原始 评分 的 基础 上 ， 缩 小 4 倍 得 到 一 个 归 
一 化 的 结果 ， 然 后 再 作为 计算 结果 的 参照 。 
通过 表 2 的 展示 可 以 发 现 ， 在 当前 参数 设置 情况 下 ， 计 算 


的 结果 与 人 工 评 价 的 结果 相差 不 大 。 
不 高 的 图 像 对 ， 计 算 结果 基本 吻合 。 
相对 ， 计 算 结果 出 现 了 较 低 的 情况 。 
行 了 进 


其 中 ， 对 于 人 工 评 价 分 值 


对 于 人 工 评 价 分 值 高 的 图 
在 第 5 节 对 实验 的 情况 进 
步 的 分 析 ， 并 提出 了 未 来 的 工作 。 
表 2 加 权 计 算 结果 


Table 2 Weighted calculation results 


图 像 对 AT 。 ”加权 计算 图 像 对 AT 。 加 权 计 算 
第 一 0.08 0.06 第 六 组 0.43 0.11 

第 二 组 0.12 0.09 第 七 组 0.48 0.43 

第 三 组 0.28 0.08 BN 0.50 0.31 

第 四 组 0.30 0.34 第 九 组 0.55 0.13 
第 五 组 0.37 0.45 第 十 组 0.84 0.71 
5 ”结束 语 

通过 与 人 工 评价 的 结果 进行 对 比 ， 可 以 看 出 本 文 设计 的 基 
于 DONN 分 类 的 图 像 相 关 度 度量 方法 可 以 取得 一 定 的 效果 。 该 
方法 能 够 挖掘 图 像 之 间 隐 含 的 关联 关系 ， 并 依据 WordNet 定义 


的 结构 进行 上 下 文 扩展 , 进一步 的 将 这 种 关系 转换 为 数值 形式 。 
对 于 人 工 评价 高 的 图 像 对 ， 出 现 计算 结果 较 低 的 情况 ， 本 文 认 


为 是 由 于 得 到 的 分 类 标签 在 WordNet 中 距离 较 近 ， 由 于 扩展 层 


次 参数 t 的 限制 ， 会 导致 扩展 集合 中 的 元 素数 量变 大 ， 而 有 效 


关联 集合 中 的 元 素数 量 不 变 ， 造 成 了 结果 偏 小 的 情况 。 另 外 在 
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实现 过 程 中 发 现 了 该 方法 存在 的 一 些 其 他 问题 ， 主 要 包括 两 方 


HI 9 


一 方面 是 图 像 分 类 模型 的 准确 度 问题 ， 另 一 方面 是 计算 方 


法 的 合 


性 问题 。 针 对 这 两 方面 的 问题 提出 了 未 来 的 工作 : 
a) 更 多 第 三 方 知识 库 的 选择 。 针 对 计算 结果 的 误差 问题 ， 


考虑 集合 更 多 的 第 三 方 知识 库 ， 如 ConceptNetP2U 等 ， 对 图 像 关 


联 的 文本 概念 进行 扩展 ， 并 作为 计算 的 内 容 。 


b) 更 加 优化 的 深度 卷 积 神经 网 络 模型 。 针 对 分 类 模型 的 准 


确 性 问题 ， 考 虑 用 精度 更 高 的 模型 代替 ， 同 时 引入 基于 图 像 的 
实体 识别 方法 ， 对 图 像 的 内 容 进行 更 深层 次 的 挖掘 ， 而 不 仅 限 


于 图 像 的 分 类 。 


|B 


化 。 


E 
结合 


c) 计算 方法 的 优化 。 在 加 权 值 的 Jaccard 计算 方法 的 基础 
考虑 进一步 的 改进 权 值 的 计算 方法 ， 保 证 计算 结果 的 最 优 


此 外 ， 在 构建 多 媒体 知识 图 谱 时 ， 可 以 利用 本 文 的 思想 ， 
于 像 与 知识 图 谱 中 的 资源 存在 的 关联 关系 ， 以 及 知识 图 谱 


中 资源 与 资源 之 间 的 关联 关系 ， 确 定 图 像 与 图 像 之 间 的 关联 关 


系 。 
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